2 Limpieza y consistencia de los datos
El producto de los procesos de producción y registro de los datos suele cristalizarce en una (o varias) bases de datos. Estas pueden (y suelen) contener diferentes tipos de errores por lo que se considera una buena práctica realizar un proceso de limpieza y preparación para recién después comenzar el proceso estricto del análisis de los mismas.
En esta sección veremos algunos ejemplos tanto de limpieza, consistencia y construcción de nuevas variables. Aquí veremos ejemplos de los casos mas sencillos. Procesos como el pegado (joint) de variables, necesario cuando los datos se encuentran en diferentes archivos o bases de datos, no se verán aquí.
2.1 Limpieza
La idea de limpieza (cleaning) viene de usar la metáfora de dato sucio (dirty). Un dato sucio no necesariamente es un dato incorrecto aunque sí se trata de un tipo de dato más incómodo de trabajar ya que dificulta el posterior análisis.
La tarea de la limpieza de una base de datos suele implicar un tiempo, especialmente en bases de datos con muchas variables (muchas columnas). Si bien es una práctica recomendada siempre hay que tener en cuenta la “escala” del trabajo a realizar porque que en algunas situaciones puede que sea más simple corregir algunas cuestiones de manera artesanal o a mano en el proceso mismo de la publicación de los análisis. Esto suele ser particularmente cierto en algunos de los siguientes escenarios y sus posibles combinaciones:
Encuestas con muchas preguntas en donde se sabe que se van a analizar una sola vez o que se analiza sólo una pequeña parte de la información disponible.
Base de datos y procesos de análisis que luego no se van a compartir (los resultados se comparten pero estos no son replicables por terceros)
De manera complementaria el proceso de limpieza se amortiza considerablemente cuando los datos se van a analizar más de una vez y cuando se requiere un grado de transparencia que exige que la investigación sea enteramente replicable.
2.1.1 Renombre de las variables
La tarea básica de limpieza (cleaning) que aquí se hará será el remombre de todas las variables. La razón de esta operación es que, al menos si se trabaja con google forms (aunque algo similar suele suceder con otros sistemas de formularios online), los nombres de las variables son el texto de la propia pregunta del formulario. Esto incomoda un poco el análisis de los datos por la gran extensión de algunas preguntas y esa incomodidad se traduce en una mayor propensión al error. En este sentido para trabajar con los nombres de las variables suele ser recomendable:
Eliminar los espacios entre las palabras agregando algún símbolo que las pegue o una (“_”, “-” o cualquier otro),
Pasar todas las letras a minúscula (o mayúscula)
Renombrar el nombre original con un nombre más corto y recordable. Una opción recomendable es que cuando en la encuesta haya variables que corresponde a un mismo módulo (p.e. módulo vivienda) se inicien por un mismo prefijo (viv_habitaciones, viv_inodoro, etc.).
2.1.2 Orden de las variables
Otra tarea diferente pero relacionada con la anterior tiene que ver con el orden de las variables en la base de datos. En algunos sistemas el orden de las variables tiene que ver con el orden cronológico en que se fueron construyendo las preguntas (p.e. en una encuesta) o con el orden en que luego se fueron construyendo variables complejas o recategoriaciones. En cualquier caso, lo que se debe tratar de lograr es que las variables que tienen relación temática entre sí, no sólo tengan un prefijo que las una sino que se encuentren visualmente cercanas en la base de datos. Esta recomendación es más importante cuanto más variables tenga la base de datos.
2.1.3 Etiquetado de las variables
Antes se habló de renombrar y ordenar las variables. Sin embargo, en las ciencias sociales y en especial en aquellas disciplinas donde se encuentren difundidos programas estadísticos como el SPSS, SAS y Stata se usa la distinción entre nombre de la variable y etiqueta de la misma. El primero es como el nombre real de la variable y así lo entiende el mismo programa. La segunda es como un alias o un metadato que permite una interpretación más humana del significado de la variable. Muchas veces el contenido de la etiqueta se acerca a la pregunta original. Ahora bien, las variables, especialmente las que se suelen denomianar discretas o categóricas, aparte de tener un nombre pueden contener una serie finita de categorías.
Cuando se trata de variables del tipo “Indique su cantidad de hijes” si la respuesta de la base de datos es un “2” se entiende que la persona ha respondido que tiene 2 hijes. Lo mismo si aparece un “1” o un “3”. Se dice que estos son los valores de las variables. Pero el problema comienza, siguiendo una vieja tradición del análisis de datos (ver “De donde vienen las etiquetas”) cuando como respuesta a variables del tipo “Indique su género” nos encontramos con símbolos (más precisamente numerales) como “1”, “2”, etc. en la base de datos. Estos símbolos se suelen llamar códigos y, sin información externa, no hay manera de saber que significan. Para eso vuelven en nuestra ayuda las etiquetas
Así como hay etiquetas para los nombres de las variables también lo hay para sus etiquetas.
La etiqueta es especialmente útil en los contextos de presentación de los análisis sea tanto en formato de tablas y gráficos. La razón es que el lector de los informes puede no estar al tanto ni del cuestionario original ni de la propia base de datos. Simplemente es un lector de un informe que desea, razonablemente, que en vez de algo como “n_hijes” apareza algo como “Cantidad de hijes” o que en vez de “3” en los análisis de la variable “Género” aparezca algo como “género no binario”.
2.1.4 Tipo de dato de la variable
Otro punto a destacar es lo que a veces de suele denominar “nivel de medición” de la variable. Este término se suele utilizar más en programas o lenguajes específicos para análisis de datos pero tienen una similitud con el proceso usual en una planilla de cálculo (excel, google sheet, etc) de aplicarle “formato” a la celda para indicarle si se trata de texto o un número y sí se trata de número de que tipo (porcentaje, fecha, decimal, etc.).
Este tipo de metainformación suele ser útil para que el programa detecte que tipo de gráfico es apropiado o que tipo de cálculo realizar. De todos modos los programas vienen cada vez con mejores heurísticas para adiviniar, sin previa indicación de que tipo de dato se trata.